检索结果

Select

1. 基于粒计算的K-medoids聚类算法

马箐谢娟英

计算机应用 2012, 32 (07): 1973-1977. DOI: 10.3724/SP.J.1087.2012.01973

摘要（1383）

PDF （804KB）（853）

传统K-medoids聚类算法的聚类结果随初始中心点不同而波动，且计算复杂度较高不适于处理大规模数据集；快速K-medoids聚类算法通过选择合适的初始聚类中心改进了传统K-medoids聚类算法，但是快速K-medoids聚类算法的初始聚类中心有可能位于同一类簇。为克服传统K-medoids聚类算法和快速K-medoids聚类算法的缺陷，提出一种基于粒计算的K-medoids聚类算法。算法引入粒度概念，定义新的样本相似度函数，基于等价关系产生粒子，根据粒子包含样本多少定义粒子密度，选择密度较大的前K个粒子的中心样本点作为K-medoids聚类算法的初始聚类中心，实现K-medoids聚类。UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试，证明了基于粒计算的K-medoids聚类算法能得到更好的初始聚类中心，聚类准确率和聚类误差平方和优于传统K-medoids和快速K-medoids聚类算法，具有更稳定的聚类结果，且适用于大规模数据集。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于样本空间分布密度的改进次胜者受罚竞争学习算法

谢娟英郭文娟谢维信高新波

计算机应用 2012, 32 (03): 638-642. DOI: 10.3724/SP.J.1087.2012.00638

摘要（1352）

PDF （784KB）（574）

针对传统次胜者受罚竞争学习(RPCL)算法忽略数据集几何结构对节点权值调整的影响,以及魏立梅等提出的新RPCL算法(魏立梅,谢维信.聚类分析中竞争学习的一种新算法.电子科学学刊,2000,22(1):13-18)引入密度来对节点的权值进行调整时,密度定义的主观性,提出基于样本空间分布密度的改进RPCL算法。该算法根据数据集样本自然分布定义样本密度,将此密度引入RPCL节点权值调整;使用UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集对算法进行实验测试,对算法确定数据集类簇数目的准确率、运行时间、聚类误差平方和、聚类结果的Rand指数、Jaccard系数以及Adjust Rand index参数进行分析比较。各项实验结果显示:所提算法优于原始RPCL算法和魏立梅算法,具有更好的聚类效果,对噪声数据有很强的抗干扰性能。所提算法不仅能根据样本的自然分布确定数据集的合理类簇数目,而且能确定合适的类簇中心,提高聚类的准确性,使聚类结果尽可能快地收敛到全局最优解。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于D-score与支持向量机的混合特征选择方法

谢娟英雷金虎谢维信高新波

计算机应用 2011, 31 (12): 3292-3296.

摘要（1354）

PDF （801KB）（520）

F-score作为特征评价准则时，没有考虑不同特征的不同测量量纲对特征重要性的影响。为此，提出一种新的特征评价准则D-score，该准则不仅可以衡量样本特征在两类或多类之间的辨别能力，而且不受特征测量量纲对特征重要性的影响。以D-score为特征重要性评价准则，结合前向顺序搜索、前向顺序浮动搜索以及后向浮动搜索三种特征搜索策略，以支持向量机分类正确率评价特征子集的分类性能得到三种混合的特征选择方法。这些特征选择方法结合了Filter方法和Wrapper方法的各自优势实现特征选择。对UCI机器学习数据库中9个标准数据集的实验测试，以及与基于改进F-score与支持向量机的混合特征选择方法的实验比较，表明D-score特征评价准则是一种有效的样本特征重要性，也即特征辨别能力衡量准则。基于该准则与支持向量机的混合特征选择方法实现了有效的特征选择，在保持数据集辨识能力不变情况下实现了维数压缩。